云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务,提供丰富的监控指标。日志服务支持接入云监控数据,并支持您使用智能巡检功能对云监控数据进行智能的异常巡检。

前提条件

已导入云监控数据到目标Metricstore中(例如Project:monitor,Metricstore:cloud-monitor-metrics)。具体操作,请参见导入云监控数据

步骤一:分析数据

接入云监控数据后,您可以先选择一个指标进行分析,并构造对应的查询分析语句。当该指标的分析结果符合预期时,您可以根据业务需求筛选更多的指标,构造查询分析语句,用于创建智能巡检作业。

  1. 登录日志服务控制台
  2. 进入Metricstore页面。
    1. 在Project列表区域,单击目标Project。
    2. 时序存储 > 时序库页签中,单击目标Metricstore。
  3. 查看监控指标。
    例如下图中已接入582个监控指标,详细的监控指标说明请参见预设监控项参考。此处以acs_ecs_dashboard:cpu_system:Average为例,选择该指标后,日志服务将通过时序图展示该指标的变化情况。智能巡检-云监控指标
  4. 分析监控指标。
    1. 单击页面右上角的查询页面
    2. 输入如下查询分析语句,单击查询/分析
      * |
      select
        promql_query_range(
          'avg({__name__=~"acs_ecs_dashboard:cpu_system:Average"}) by (instanceId, __name__) ',
          '15s'
        )
      FROM  metrics
      limit
        1000000

      执行上述语句后,返回如下预期的结果,因此您可以将该查询分析语句应用到更多的监控指标中。

      云监控指标
  5. 筛选监控指标。

    根据业务需求选择更多的监控指标,构造查询分析语句,用于智能巡检。

    * |
    select
      time / 1000 as time,
      metric,
      element_at(labels, 'instanceId') as instanceId,
      value
    FROM  (
        select
          promql_query_range(
            'avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average"}) by (instanceId, __name__) ',
            '1m'
          )
        FROM      metrics
      )
    limit
      10000
    ECS相关的重要指标如下所示。详细的监控指标说明请参见预设监控项参考
    acs_ecs_dashboard:CPUUtilization:Average
    acs_ecs_dashboard:DiskReadBPS:Average
    acs_ecs_dashboard:DiskReadIOPS:Average
    acs_ecs_dashboard:DiskWriteBPS:Average
    acs_ecs_dashboard:DiskWriteIOPS:Average
    acs_ecs_dashboard:InternetIn:Average
    acs_ecs_dashboard:InternetInRate:Average
    acs_ecs_dashboard:InternetOut:Average
    acs_ecs_dashboard:InternetOutRate:Average
    acs_ecs_dashboard:InternetOutRate_Percent:Average
    acs_ecs_dashboard:IntranetIn:Average
    acs_ecs_dashboard:IntranetInRate:Average
    acs_ecs_dashboard:IntranetOut:Average
    acs_ecs_dashboard:IntranetOutRate:Average
    acs_ecs_dashboard:cpu_idle:Average
    acs_ecs_dashboard:cpu_other:Average
    acs_ecs_dashboard:cpu_system:Average
    acs_ecs_dashboard:cpu_total:Average
    acs_ecs_dashboard:cpu_user:Average
    acs_ecs_dashboard:cpu_wait:Average
    acs_ecs_dashboard:disk_readbytes:Average
    acs_ecs_dashboard:disk_readiops:Average
    acs_ecs_dashboard:disk_writebytes:Average
    acs_ecs_dashboard:disk_writeiops:Average
    acs_ecs_dashboard:load_1m:Average
    acs_ecs_dashboard:load_5m:Average
    acs_ecs_dashboard:memory_actualusedspace:Average
    acs_ecs_dashboard:memory_freespace:Average
    acs_ecs_dashboard:memory_freeutilization:Average
    acs_ecs_dashboard:memory_totalspace:Average
    acs_ecs_dashboard:memory_usedspace:Average
    acs_ecs_dashboard:memory_usedutilization:Average
    acs_ecs_dashboard:net_tcpconnection:Average
    acs_ecs_dashboard:networkin_errorpackages:Average
    acs_ecs_dashboard:networkin_packages:Average
    acs_ecs_dashboard:networkin_rate:Average
    acs_ecs_dashboard:networkout_errorpackages:Average
    acs_ecs_dashboard:networkout_packages:Average
    acs_ecs_dashboard:networkout_rate:Average

步骤二:创建智能巡检作业

  1. 登录日志服务控制台
  2. 进入创建作业页面。
    1. 日志应用区域,单击智能异常分析
    2. 在实例列表中,单击目标实例。
    3. 在左侧导航栏中,单击智能巡检
    4. 巡检任务区域,单击立即创建
  3. 创建智能巡检作业配置向导的基本信息区域,完成如下配置,然后单击下一步
    具体的参数说明,请参见通过SQL聚合指标数据进行智能巡检云监控指标
  4. 创建智能巡检作业配置向导的算法配置区域,完成以下操作。
    1. 数据特征配置区域的数据类型中,选择通过SQL格式化数据,然后完成以下配置。

      其中,数据特征配置中的查询和分析语句请参见步骤5。具体的参数说明,请参见通过SQL聚合指标数据进行智能巡检

      云监控指标
    2. 算法配置区域,完成以下配置,然后在数据采样中,选择一个实体,单击预览采样数据,验证您所配置的参数与您的数据是否适配,以及执行结果是否符合您的预期。
      云监控指标
    3. 调度配置区域,设置智能巡检作业开始执行的时间和数据延时时长。
      注意
      • 建议设置时间范围的起始时间为两天前的时间,使算法模型有足够的数据进行学习。
      • 由于导入云监控数据存在延迟(大约3分钟),因此建议设置数据延迟时长为300秒。
    4. 单击下一步
  5. 创建智能巡检作业配置向导的告警配置区域,完成以下配置,然后单击完成
    如何获取钉钉请求地址,请参见钉钉-自定义。关于新版告警的更多信息,请参见什么是日志服务告警
    告警
    当指标异常时,即result.score大于0.75时,日志服务将发送告警通知到钉钉群中。接收到告警后,您可以在钉钉群中,对告警进行打标。具体操作,请参见告警与打标反馈